Model Selection

RLHF fine-tuning

# RLHF fine-tuning

Llama 3.2 3B Instruct QLORA INT4 EO8

Llama 3.2 is a multilingual large language model launched by Meta, offering two parameter scales of 1B and 3B, supporting various language tasks, and performing better than existing open-source and closed-source models.

Large Language Model

PyTorch Supports Multiple Languages

The Violet series language models are specifically trained for instruction following and maintaining Russian dialogues. The fourth generation has been optimized with RLHF, offering stronger response capabilities and richer information content.

Large Language Model

Transformers Other

Starling LM 11B Alpha

Starling-7B is an open-source large language model trained through Reinforcement Learning from AI Feedback (RLAIF), fine-tuned based on Openchat 3.5, and performs excellently in MT Bench.

Large Language Model

Transformers English

Eleuther Pythia2.8b Hh Sft

A causal language model based on Pythia-2.8b, fine-tuned using the Anthropic human preference dataset

Large Language Model

Transformers English

Llama 2 is an open-source large language model series developed by Meta, ranging from 7B to 70B parameters, supporting English text generation tasks.

Large Language Model

Transformers English

Stable Vicuna 13B GPTQ

StableVicuna-13B is a dialogue model fine-tuned via RLHF based on Vicuna-13B v0, using 4-bit GPTQ quantization format

Large Language Model

Transformers English

Stable Vicuna 13b Delta

StableVicuna-13B is a fine-tuned version of the Vicuna-13B v0 model, enhanced through Reinforcement Learning from Human Feedback (RLHF) and Proximal Policy Optimization (PPO) on various dialogue and instruction datasets.

Large Language Model

Transformers English

Deepspeed Chat Step3 Rlhf Actor Model Opt1.3b

A dialogue generation model based on OPT-1.3b, optimized through RLHF training using the DeepSpeed-Chat framework

Large Language Model

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase